超光谱图像是从卫星中捕获的图像,从卫星中捕获了特定区域的空间和光谱信息。与RGB图像相比,一个超光谱图像包含更多数量的通道,因此包含有关图像中实体的更多信息。它使它们非常适合在快照中分类对象。在过去的几年中,随着深度学习,超光谱图像识别的效率显着提高。卷积神经网络(CNN)和多层感知器(MLP)已证明是对图像进行分类的绝佳过程。但是,他们遭受了长期培训时间和大量标记数据的要求,以达到预期的结果。在处理超光谱图像时,这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖,我们建议使用转移学习方法。然后,转移学习模型使用CNN和MLP模型所学的功能来解决未见的新分类问题数据集。进行了CNN和多个MLP体系结构模型的详细比较,以确定最适合目标的最佳体系结构。结果表明,层的缩放并不总是会导致准确性的提高,但通常会导致过度拟合,也会增加训练时间。通过应用转移学习方法而不仅仅是接近,训练时间更大程度地减少了。通过直接训练大型数据集的新模型,而不会影响准确性,该问题。
translated by 谷歌翻译
与RGB图像相比,高光谱图像包含更多数量的通道,因此包含有关图像中实体的更多信息。卷积神经网络(CNN)和多层感知器(MLP)已被证明是一种有效的图像分类方法。但是,他们遭受了长期培训时间和大量标记数据的要求,以达到预期的结果。在处理高光谱图像时,这些问题变得更加复杂。为了减少训练时间并减少对大型标记数据集的依赖性,我们建议使用转移学习方法。使用PCA将高光谱数据集预处理到较低的维度,然后将深度学习模型应用于分类。然后,转移学习模型使用该模型学到的功能来解决看不见的数据集上的新分类问题。进行了CNN和多个MLP体系结构模型的详细比较,以确定最适合目标的最佳体系结构。结果表明,层的缩放并不总是会导致准确性的提高,但通常会导致过度拟合,并增加训练时间。通过应用转移学习方法而不仅仅是解决问题,训练时间更大程度地减少了。通过直接在大型数据集上训练新模型,而不会影响准确性。
translated by 谷歌翻译
Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
translated by 谷歌翻译
语法误差校正(GEC)系统执行序列到序列任务,其中GEC系统校正了包含语法错误的输入单词序列,以输出语法正确的单词序列。随着深度学习方法的出现,自动化的GEC系统变得越来越流行。例如,GEC系统通常用于英语学习者的语音转录作为评估和反馈形式 - 这些强大的GEC系统可用于自动测量候选人流利度的一个方面。 \ textit {edits}的计数从候选人的输入句子(或论文)到GEC系统的语法校正输出句子,这表明候选人的语言能力,其中更少的编辑表明更好的流利度。因此,编辑计数可以被视为\ textit {fluency评分},零表示完美的流利度。但是,尽管基于深度学习的GEC系统非常强大和准确,但它们容易受到对抗性攻击:对手可以在系统的输入下引入一个小的,特定的更改,该系统在输出时会导致大型,不需要的变化。在考虑将GEC系统应用于自动化语言评估时,对手的目的可能是通过对语法上不正确的输入句子进行小改动来作弊,该句子隐藏了GEC系统中的错误被不公正地获得了完美的流利程度。这项工作研究了一种简单的普遍替代攻击攻击,非母语的英语说话者实际上可以采用欺骗用于评估的GEC系统。
translated by 谷歌翻译
原型网络(PN)是一个简单而有效的射击学习策略。这是一种基于公制的元学习技术,通过计算欧几里得距离到每个类的原型表示,可以执行分类。常规的PN属性对所有样品的重要性都具有相同的重要性,并通过简单地平均属于每个类的支持样品嵌入来生成原型。在这项工作中,我们提出了一种新颖的PN版本,该版本将权重归因于对应于它们对支持样本分布的影响的样品。根据样品分布的平均嵌入(包括样本和排除样品的平均嵌入)之间的最大平均差异(MMD)计算样品的影响权重。此外,在没有该样品的情况下,使用MMD根据分布的变化来测量样品的影响因子。
translated by 谷歌翻译
深度估计是在机器人手术和腹腔镜成像系统中进行图像引导干预的关键步骤。由于对于腹腔镜图像数据很难获得人均深度地面真相,因此很少将监督深度估计应用于手术应用。作为替代方案,已经引入了仅使用同步的立体图像对来训练深度估计器。但是,最近的工作集中在2D中的左右一致性上,而忽略了现实世界坐标中对象的宝贵固有3D信息,这意味着左右3D几何结构一致性尚未得到充分利用。为了克服这一限制,我们提出了M3Depth,这是一种自我监督的深度估计器,以利用3D几何结构信息隐藏在立体声对中,同时保持单眼推理。该方法还消除了在至少一个立体声图像中通过掩码看不见的边界区域的影响,以增强重叠区域中的左图和右图像之间的对应关系。密集实验表明,我们的方法在公共数据集和新获取的数据集上的以前的自我监督方法都大大优先,这表明在不同的样品和腹腔镜上都有良好的概括。
translated by 谷歌翻译
空间机器人应用程序(例如,拆除活动空间碎片)(ASDR)需要在启动之前进行代表性测试。在空间中模仿微重力环境的一种常用方法是基于空气的平台,例如欧洲航天局的轨道机器人技术和GNC Lab(ORGL)。这项工作为ORGL的浮动平台提供了控制架构,配备了八个基于螺线管 - 阀门的推进器和一个反应轮。控制体系结构由两个主要组成部分组成:一个轨迹规划师,该轨迹规划师找到了连接两个状态的最佳轨迹和一个遵循任何物理可行轨迹的轨迹追随者。首先在引入的仿真中评估控制器,在查找和跟随轨迹的轨迹中获得100%的成功率,以在蒙特卡罗测试中来源。单个轨迹也成功地是物理系统。在这项工作中,我们展示了控制器拒绝干扰并遵循数十厘米内的直线轨迹的能力。
translated by 谷歌翻译
跨视野地理位置化的现有工作基于将地面全景与空中图像相匹配的图像。在这项工作中,我们专注于地面视频,而不是图像,这些视频提供了对此任务很重要的其他上下文提示。没有针对此问题的现有数据集,因此我们提出了GAMA数据集,这是一个带有地面视频和相应空中图像的大型数据集。我们还提出了一种解决这个问题的新方法。在剪辑级,简短的视频剪辑与相应的空中图像匹配,后来用于获得长视频的视频级地理定位。此外,我们提出了一种分层方法,以进一步改善剪辑级地理定位。这是一个具有挑战性的数据集,未对齐和有限的视野,我们提出的方法的前1个召回率为19.4%和45.1% @1.0英里。代码和数据集可在以下链接中获得:https://github.com/svyas23/gama。
translated by 谷歌翻译
与单模式学习相比,大型数据集上的联合视觉和语言建模最近在多模式任务中表现出了良好的进步。但是,这些方法对现实世界扰动的鲁棒性尚未被研究。在这项工作中,我们对此类模型进行了首次广泛的鲁棒性研究,以针对针对视频和语言的各种现实世界的扰动。我们专注于文本到视频检索,并提出了两个大型基准数据集,即MSRVTT-P和YouCook2-P,它们利用了90个不同的视觉和35个不同的文本扰动。该研究揭示了一些有趣的发现:1)当文本受到干扰而不是视频扰动时,研究的模型更加可靠。 3)与跨注意时,使用两个分支编码器通常更健壮。我们希望这项研究能够作为基准,并指导强大的多模式学习的未来研究。
translated by 谷歌翻译
近年来,我们在视频动作识别方面取得了巨大进展。有几种基于卷积神经网络(CNN)的模型,采用了一些基于变压器的方法,可在现有基准数据集上提供最先进的性能。但是,对于这些模型,尚未研究大规模的鲁棒性,这对于现实世界应用而言是关键方面。在这项工作中,我们对这些现有模型进行大规模鲁棒性分析,以供视频识别。我们主要关注因现实世界扰动而不是对抗性扰动引起的分配变化的鲁棒性。我们提出了四个不同的基准数据集,即HMDB-51P,UCF-101P,Kinetics-400P和SSV2P,并研究了六种针对90种不同扰动的六种不同最先进的动作识别模型的鲁棒性。该研究揭示了一些有趣的发现,1)基于变压器的模型与基于CNN的模型相比,对于大多数扰动,基于变压器的模型始终更健壮,2)预训练有助于基于变压器的模型比基于CNN的模型更适合不同的扰动,而3)所有研究的模型对动力学数据集的时间扰动都具有鲁棒性,但在SSV2上却不是。这表明时间信息对于SSV2数据集的动作标签预​​测比动力学数据集更为重要。我们希望这项研究能够作为在强大的视频行动识别中进行未来研究的基准。有关该项目的更多详细信息,请访问https://rose-ar.github.io/。
translated by 谷歌翻译